查看原文
其他

没有食材,数据分析师如何做饭?

唐府少帅 凹凸数据 2021-08-09
↑ 关注 + 星标 ~ 有趣的不像个技术号每晚九点,我们准时相约  


大家好,我是朱小五


做饭,不论色香味,最基本得有合适的“食材”,而对于数据分析师,两大支撑之一的“数据”,就如同做饭的食材。丰富食材可以为美味佳肴打下良好的基础,而多维度、立体化分析就需要多样的数据来源。


那有哪些获取数据的渠道呢?


下面看看唐府少帅的整理:

一、埋点/日志



商业公司,是数据分析师最大的聚集地之一,而数据分析师在其中扮演的主要角色整合商业数据,从中获得能够推动企业发展前进的方法,尤其是在互联网公司,更是存储了大量用户行为数据。


其中数据埋点则是最常用的网站分析的数据采集方法,主要是在公司官网、公开发布APP等的一些关键位置设置如点击、曝光、页面停留等事件,用以记录用户的行为操作,形成日志,记录在企业数据库中(如Orcal、SQL Server、MySQL等)。


对合理设置的埋点数据进行分析,促使我们理清用户的行为操作轨迹,明确用户的行为特征,可以帮助我们在设计用户画像时维度更加立体化;也能帮助我们构建准确的客户转化模型,从开始引流至最终成单,构建完整销售闭环。


而这些数据一般不对外开放,如非该公司员工,一般无法获得查阅使用这些数据库的权限。对于目标从事互联网行业数据分析师的朋友,可以多了解关于埋点相关的知识,有助于快速搭建出准确适用的客户模型。


二、政府网站


1、中国国家统计局

http://www.stats.gov.cn/


作为国家统计局官方网站,不仅有国家统计局的新闻公告,也包括了大量国家层面的数据,如土地数据、人口普查数据、行政区数据、国民经济数据等等政府官方数据,如果在做数据分析时需要类似数据,国家统计局的数据准确度最高,信息也更全面。


2、国家数据网


http://data.stats.gov.cn/


国家数据网,是国家统计局网站的一个二级网站,这里对数据的聚集度更高,包括了国家层面方方面面的数据,如资产类数据、农业类数据、房地产类数据、社会消费类数据等等,不仅如此,还制作了很多漂亮的可视化图表,也不失为一个学习数据可视化的好网站。


这里数据的丰富程度只有一个词可以形容,那就是:只有你想不到,没有国家做不到。


国家的政府网站会定期或不定期公开大量数据,如国家统计局、国家数据、NASA、中国产业信息等国家网站会公开大量数据。这些数据都是站在国家层面花费大量人力物力财力完成调查整理的,其数据量之庞大,维度之丰富,信息准确,远超想象。


其中,国家统计局主要是发布一些人口普查、经济普查等与国民生活息息相关的数据,网站上也公开了大量数据解读,准确帮你理解数据维度。国家数据则包含了大量产业数据,如能源产业、房地产产业、商品零售等方面的数据。NASA(美国国家航空航天局),在其网站上公布了大量宇宙探测传回的图片及数据,是获取航天信息不可多得的地方之一。


三、咨询类公司数据报告



国内外大量数据咨询公司定期都会发布大量报告,在报告中便会直接体现出许多数据。而且数据已经完成整理,可以拿来直接引用。经常逛逛这些公司的官网,不仅可以丰富数据获取来源,更可以学习大公司整理数据分析报告的思路,对我们完成数据分析具有指导性意义。


下面向大家列出了一些著名的咨询公司,每个网站都有大量可免费下载的报告。


国外:

  • 麦肯锡咨询公司:https://www.mckinsey.com

  • 贝恩咨询公司:http://www.bain.cn/

  • 波士顿咨询公司:https://www.bcg.com

  • 埃森哲咨询公司:https://www.accenture.com


国内:

  • 万得资讯(wind):https://www.wind.com.cn/

  • 零点有数:http://www.horizon-china.com/

  • 艾瑞咨询:http://www.iresearch.cn/

  • 易观:https://www.analysys.cn/

  • 企鹅智酷:https://re.qq.com/


不论是国内外,都还有大量咨询公司,上面只是列举了一部分公司,大家也可以多搜搜咨询公司,不仅可以获得需要的数据,也可以多学习学习数据分析经验以及报告展现。


四、数据竞赛网站


国内外都有许多著名的数据竞赛网站,在这里聚集了大量数据分析师,甚至是数据科学家。这些网站不仅提供了大量数据,也由于专业性的比赛,也是学习数据分析的好地方,甚至赢得比赛,也能获得不菲的佣金。在这里向大家列举几个著名的数据竞赛网站。


1、Kaggle(https://www.kaggle.com)



kaggle主要是为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台,已经吸引了许多科学家和开发者的关注甚至入驻的平台。不过由于Kaggle的服务器不在国内,需要学会科学上网。


2、阿里天池(https://tianchi.aliyun.com)



阿里天池是国内互联网三大巨头BAT之一的阿里组建的数据竞赛平台,这里也聚集了大量国内数据爱好者,尤其是高校老师和在校生参与众多。平台上也公开了大量数据,甚至是淘宝、天猫的用户行为数据,也是比赛的数据之一。


3、科赛(https://www.kesci.com)



科赛的名气虽稍逊于前两个平台,但是作为国内著名的开放数据科学社区之一,也聚集了大量数据科学方面的人才,在这里可以学习前辈们的经验、与大家相互交流,共同成长,同时,这里也发布了大量任务,通过完成任务也可以获得相应的佣金,促进能力金钱双丰收。


五、开放API接口


国内外,都有一些公司/机构/博客开放一些数据API给用户使用,只要会一些编程语言,按照索命文档进行操作,就可以直接使用这些数据,下面向大家展示一些开放的API。


1、百度数据开放平台(https://open.baidu.com)


2、聚合数据(https://www.juhe.cn/)


3、高德地图(https://lbs.amap.com/)


4、百度地图(http://lbsyun.baidu.com/)


高德地图、百度地图等一些公司,也开放了大量可直接调用的地图数据,尤其是在做数据展现的时候,可以直接使用,能够在第一时间带给人空间上的感受。


5、数据包

(TensorFlow中文社区)


在安装R语言、SPSS、SAS、Tableau、TensorFlow等一些数据处理软件或工具时,会有一些可以直接使用的数据,如常用的IRIS(鸢尾花数据集),Titanic(泰坦尼克生存数据集)WINE(葡萄酒数据集)等。


六、网络爬虫


如果上述办法还是没有帮到你找到合适的数据,那么最终通过网络爬虫也可以获得你最想要的数据。而常使用的网络爬虫工具有以下这么多,总有一款适合你:


1、Python(https://www.python.org/)


作为当前最接近人类的语言,Python有着众多优势,首当其冲是便是简洁。站在前辈的肩膀上,甚至只需要短短两行代码,就可以从网络上爬取到数据。


2、JAVA(https://www.java.com/zh_CN/)


当今最热的话题之一便是JAVA与Python的较量,有些朋友热衷Python,有些朋友热衷Java,但不论选择二者中的哪一个,都能从网络上爬取到需要的数据。


3、PHP(https://www.php.net/)


作为国内这两年最热的后端开发语言,其实PHP也能作为爬虫语言,这或许好多朋友没听说过吧。


4、Excel与Power BI

(Excel)


(Power BI)


作为微软家出的工具,如今都是大名鼎鼎。


Excel不必多说,是当今最常用的办公软件之一,想想多少人在简历上写了熟悉Excel,可是,实话说,使用的功能还打不到其功能的十分之一。更多人不知道这两款工具能够直接从网络上下载工具。


其实,从Excel 2016开始,包括Excel 2019,Excel 365就已经内置了Power Query模块,打开这个模块,只需要收入网址,就能智能匹配出想要下载的数据,是不是相当贴心?而Power BI则相当于Excel的升级版,其功能的强大,更是远超想象。自2017年起,Power BI就已经超过Tableau成为最强悍的智能数据分析工具。


5、八爪鱼(https://www.bazhuayu.com/)


八爪鱼作为一款集成程度最高的一款数据采集工具,深受大量不会编程的朋友喜爱。相比于Excel而言,八爪鱼更是可以采集网页各式各样的数据,使用起来也是相当顺手,如果不想学习编程的朋友想要采集一些非常规的数据,八爪鱼是个不错的选择呢。




以上就是为大家整理的所有最常用的数据获取渠道,欢迎大家分享。


如果你还有自己常用的数据获取渠道,也欢迎留言分享~~




后台回复「进群」,加入读者交流群~

昨日留言的所有同学,已统一+20积分

未激活的同学后台回复“积分”激活功能

点击积分,了解积分规则~

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存